FILTER MODE ACTIVE

#визуально-языковые модели

Найдено записей: 4

#визуально-языковые модели31.08.2025

Alibaba представила GUI-Owl и Mobile-Agent-v3: умные агенты для автоматизации интерфейсов

'Команда Alibaba представила GUI-Owl и Mobile-Agent-v3 — мультимодальную модель и мультиагентный фреймворк для надежной автоматизации интерфейсов на мобильных и десктопных платформах.'

ЧИТАТЬ →

#визуально-языковые модели29.04.2025

UniME: Двухэтапная система для улучшения мультимодального обучения представлений с использованием MLLM

UniME представляет двухэтапный фреймворк, значительно улучшающий мультимодальное обучение представлений за счёт текстовой дистилляции и обучения с сложными негативами, превосходя существующие модели на множестве бенчмарков.

ЧИТАТЬ →

#визуально-языковые модели28.04.2025

ViSMaP: Революция в суммировании часовых видео с помощью неаннотированного мета-промптинга

ViSMaP предлагает неаннотированный метод эффективного суммирования часовых видео с помощью мета-промптинга и коротких видеодатасетов, достигая результатов, сопоставимых с моделями, обученными с разметкой.

ЧИТАТЬ →

#визуально-языковые модели23.04.2025

Скрытые издержки ошибок аннотаций в AI-датасетах раскрыты

Новое исследование выявило, как ошибки в аннотациях AI-датасетов искажают оценку визуально-языковых моделей, подчеркивая необходимость улучшения практик человеческой разметки для повышения надежности моделей и снижения галлюцинаций.

ЧИТАТЬ →